查看原文
其他

合成数据丨在医疗保健、保险和金融服务业的技术应用

VInod Bange 开放隐私计算 2024-01-09


许多企业正在逐步以数据为中心构建商业体系,致力于智能化利用大规模生成的数据,数据共享和利用也带来了相应的风险,如机密信息和敏感个人数据的泄露限制了庞大数据集的潜力。近几年,随着合成数据技术的出现,这种情况正在逐渐改变。
合成数据生成和应用正成为数据共享的主要方法之一,它通过使用生成模型和算法人工创建的数据,以模仿真实世界的数据。相较于真实世界数据,合成数据的巨大潜力在于它可以模仿真实数据的特征和模式,同时不使用或披露真实个人数据,以保护数据主体的隐私。
前段时间,英国信息专员办公室(ICO)与金融市场行为监管局(FCA)和艾伦·图灵研究所合作,发布了名为《探索合成数据验证-隐私、实用性和保真度》的研究报告。该报告提供了关于合成数据实用性、隐私特性验证以及在不同行业中推动合成数据应用的有用见解。本文将详细探讨合成数据的技术细节,并介绍其在金融服务和医疗保健等不同行业中的应用。

为何选择合成数据?

共享个人数据可能对个人造成重大伤害风险,这也是为什么全球范围内要对其进行严格监管。为了在实现数据共享的社会和经济优势的同时,采用以数据保护为设计和默认的数据使用方法,ICO倡导使用增强隐私技术(PETs),而合成数据正是这些推荐技术的一部分。
据《加特纳公司2022年人工智能炒作周期报告》预测,到2025年,合成数据将导致隐私泄露事故减少70%。此外,合成数据还为训练模型和测试提供了规模化和经济实惠的快速生成数据集。预计到2024年,合成数据将占据用于训练和开发人工智能模型所需数据的60%。

应用案例


医疗保健
患者信息通常极具敏感性,因此在临床试验和研究中使用这些信息是一项挑战。合成数据可以生成高质量的数据集,风险较低,而无需使用真实数据。它可用于解决特定查询(如医学测试趋势),而无需查看敏感信息(如个人实际医疗结果),从而促进研究结果和新治疗方法的开发,同时保护敏感的个人医疗数据。
患者信息通常极具敏感性,因此在临床试验和研究中使用这些信息是一项挑战。合成数据可以生成高质量的数据集,风险较低,而无需使用真实数据。它可用于解决特定查询(如医学测试趋势),而无需查看敏感信息(如个人实际医疗结果),从而促进研究结果和新治疗方法的开发,同时保护敏感的个人医疗数据。

保险业
患者信息通常极具敏感性,因此在临床试验和研究中使用这些信息是一项挑战。合成数据可以生成高质量的数据集,风险较低,而无需使用真实数据。它可用于解决特定查询(如医学测试趋势),而无需查看敏感信息(如个人实际医疗结果),从而促进研究结果和新治疗方法的开发,同时保护敏感的个人医疗数据。
保险公司可以采用合成数据生成来应对个人数据使用的规定和限制。例如,公司已经使用合成数据通过统计洞察力提高了其核保准确性,以保持竞争力并适应市场发展。

金融服务
患者信息通常极具敏感性,因此在临床试验和研究中使用这些信息是一项挑战。合成数据可以生成高质量的数据集,风险较低,而无需使用真实数据。它可用于解决特定查询(如医学测试趋势),而无需查看敏感信息(如个人实际医疗结果),从而促进研究结果和新治疗方法的开发,同时保护敏感的个人医疗数据。
合成数据在研究反洗钱和打击欺诈交易方面发挥着重要作用。合成数据集包含代表性的客户信息示例,例如人工客户互动,包括账户开立行为、支付和提款,可以用于开发检测和打击非法活动的新工具,而无需暴露敏感客户信息的风险。ICO致力于促进金融服务领域对合成数据的负责和合法使用,并正在与行业和学术界的外部专家合作,开展可行性研究,展示合成数据在金融机构之间如何负责和合法地共享数据,同时遵守数据保护法律并降低对个人的风险。
合成数据生成和使用从三个相互依存的角度进行评估:
• 隐私:合成数据集中的个人或敏感数据是否存在被重新识别的风险。
• 保真度:合成数据集与输入的真实数据有多相似。
• 实用性:合成数据对于指定的任务有多有用。
研究发现的挑战在于在平衡这三个角度的基础上生成合成数据集,以满足特定的用例需求,同时不损害数据的真实性或隐私。
研究中值得注意的隐私建议:
• 在确定如何使用合成数据时,最好评估合成数据在特定应用和可访问级别上的需求。这一点非常重要,因为公司可能需要确定使用案例是否涉及个人数据或机密信息。这些评估必须加以考虑,以降低风险。
• 组织应仅包含满足其独特使用案例需求的特征,而不包含其他内容,以最小化从合成数据集中重新识别的风险,并符合数据保护条例对数据最小化和目的限制的规定。
• 为了在隐私和保真度之间取得平衡,企业可以根据所需的保真度和特征对潜在的使用案例进行分类,并开发多个合成数据集,每个集合都具备其自身的隐私要求。
• 无论合成数据生成器是否内置隐私保证,将隐私风险纳入合成数据的后生成测试中始终是推荐的做法。
• 为了鼓励采用合成数据,监管机构的合规门槛需要基于风险方法,承认生成和分发合成数据具有固有的风险。在这方面,组织只需证明他们已经将重新识别风险降至足够遥远的程度,并且信息已经“有效匿名化”。

总结

从上述应用案例中可以看出,释放和利用大规模数据集的潜力将带来许多好处。OpenMPC将继续关注这些发展。合成数据的应用正在为数据驱动型企业提供更加灵活和可持续的解决方案。通过合成数据,我们可以在数据共享和应用开发的过程中保护隐私,并减少风险。这一趋势将继续发展,为各行各业创造更多机遇和挑战。我们期待在这个新的数据时代中,合成数据技术的不断创新和应用,为我们带来更加智能和可持续的未来。

本文由“开放隐私计算”翻译整理,转载请注明来源。

END

热门文章:




隐私计算头条周刊(07.10-07.16)


招标 | 近期隐私计算项目招标中标41(中原工学院、沧州智慧城市、恒丰银行、数字广东、云南大学、湖南大数据)


隐私计算:生命科学领域数据共享障碍的解决方案


社区招募丨OpenMPC隐私计算课程课代表征集


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存